عوامل هوش مصنوعی به توضیح سایر سیستم های هوش مصنوعی کمک می کنند
عوامل هوش مصنوعی به توضیح سایر سیستم های هوش مصنوعی کمک می کنند -توضیح رفتار شبکه های عصبی آموزش دیده همچنان یک معمای قانع کننده است، به خصوص که این مدل ها در اندازه و پیچیدگی رشد می کنند.
مانند دیگر چالشهای علمی در طول تاریخ، مهندسی معکوس نحوه عملکرد سیستمهای هوش مصنوعی به مقدار قابل توجهی آزمایش نیاز دارد: ایجاد فرضیهها، مداخله در رفتار، و حتی کالبد شکافی شبکههای بزرگ برای بررسی تک تک سلولهای عصبی.
تا به امروز، بیشتر آزمایش های موفق شامل مقادیر زیادی از نظارت انسانی بوده است.
توضیح هر محاسباتی در داخل مدل هایی با اندازه GPT-4 و بزرگتر تقریباً به اتوماسیون بیشتری نیاز دارد – شاید حتی با استفاده از خود مدل های هوش مصنوعی.
برای تسهیل این تلاش به موقع، محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) رویکرد جدیدی را توسعه دادهاند که از مدلهای هوش مصنوعی برای انجام آزمایشها بر روی سیستمهای دیگر و توضیح رفتار آنها استفاده میکند.
روش آنها از عواملی استفاده می کند که از مدل های زبانی از پیش آموزش دیده ساخته شده اند تا توضیحات شهودی از محاسبات در داخل شبکه های آموزش دیده ارائه کنند.
مرکز این استراتژی «عامل تفسیرپذیری خودکار» (AIA) است که برای تقلید از فرآیندهای آزمایشی یک دانشمند طراحی شده است.
عوامل تفسیرپذیری آزمایشهایی را روی سیستمهای محاسباتی دیگر برنامهریزی و انجام میدهند، که میتوانند در مقیاس از نورونهای منفرد تا کل مدلها متغیر باشند تا توضیحاتی درباره این سیستمها به اشکال مختلف ارائه دهند: توصیف زبانی از آنچه که یک سیستم انجام میدهد و کجا شکست میخورد، و کدی که رفتار سیستم را بازتولید می کند.
برخلاف رویههای تفسیرپذیری موجود که بطور منفعلانه نمونهها را طبقهبندی یا خلاصه میکنند، AIA فعالانه در شکلگیری فرضیه، آزمایش تجربی، و یادگیری تکراری شرکت میکند، در نتیجه درک خود از سیستمهای دیگر را در زمان واقعی اصلاح میکند.
مکمل روش AIA، معیار جدید “تفسیر و توصیف تابع” (FIND) است، یک بستر آزمایشی از توابع شبیه محاسبات در داخل شبکه های آموزش دیده، و توضیحات همراه از رفتار آنها.
یکی از چالشهای کلیدی در ارزیابی کیفیت توصیف اجزای شبکه دنیای واقعی این است که توصیفها به اندازه قدرت توضیحی آنها خوب هستند: محققان به برچسبهای واقعی واحدها یا توضیحات محاسبات آموختهشده دسترسی ندارند.
FIND با ارائه یک استاندارد قابل اعتماد برای ارزیابی رویههای تفسیرپذیری، به این موضوع دیرینه در این زمینه میپردازد: توضیحات توابع (به عنوان مثال، تولید شده توسط یک AIA) را میتوان با توصیف عملکرد در معیار ارزیابی کرد.
به عنوان مثال، FIND شامل نورون های مصنوعی است که برای تقلید از رفتار نورون های واقعی در داخل مدل های زبان طراحی شده اند، که برخی از آنها برای مفاهیم فردی مانند “حمل و نقل زمینی” انتخابی هستند.
به AIA ها به نورون های مصنوعی و ورودی های طراحی (مانند درخت، شادی، و ماشین) دسترسی جعبه سیاه داده می شود تا پاسخ یک نورون را آزمایش کنند.
بعد از اینکه متوجه شد که یک نورون مصنوعی مقادیر پاسخ بالاتری را برای «خودرو» نسبت به سایر ورودیها ایجاد میکند، یک AIA ممکن است آزمایشهای دقیقتری را برای تشخیص انتخابپذیری نورون برای اتومبیلها از سایر اشکال حملونقل مانند هواپیما و قایق طراحی کند.
هنگامی که AIA توصیفی مانند “این نورون برای حمل و نقل جاده ای انتخابی است و نه سفرهای هوایی یا دریایی” تولید می کند، این توصیف در مقایسه با توصیف حقیقت زمینی نورون مصنوعی (“انتخابی برای حمل و نقل زمینی”) در FIND ارزیابی می شود.
سپس می توان از معیار برای مقایسه قابلیت های AIA با روش های دیگر در ادبیات استفاده کرد.
سارا شوتمن، دکترا، نویسنده ارشد مقاله در مورد کار جدید و یک دانشمند پژوهشی در CSAIL، بر مزایای این رویکرد تاکید می کند. مقاله در سرور پیش چاپ arXiv موجود است .
“ظرفیت AIA ها برای تولید و آزمایش فرضیه های مستقل ممکن است بتواند رفتارهایی را نشان دهد که در غیر این صورت تشخیص آنها برای دانشمندان دشوار است.
قابل توجه است که مدل های زبان، زمانی که به ابزارهایی برای کاوش سیستم های دیگر مجهز شوند، قادر به این نوع طراحی آزمایشی هستند.
معیارهای ساده و تمیز با پاسخهای واقعی، محرک اصلی قابلیتهای عمومیتر در مدلهای زبانی بودهاند، و ما امیدواریم که FIND بتواند نقشی مشابه در تحقیقات تفسیرپذیری داشته باشد.
قابلیت تفسیر خودکار
مدلهای بزرگ زبان همچنان جایگاه خود را به عنوان افراد مشهور مورد تقاضای دنیای فناوری حفظ کردهاند.
پیشرفت های اخیر در LLM توانایی آنها را برای انجام وظایف استدلالی پیچیده در حوزه های مختلف برجسته کرده است.
تیم CSAIL تشخیص داد که با توجه به این قابلیتها، مدلهای زبان ممکن است بتوانند به عنوان ستون فقرات عوامل تعمیمیافته برای تفسیرپذیری خودکار عمل کنند.
شوتمن می گوید: «تفسیرپذیری از لحاظ تاریخی یک زمینه بسیار چند وجهی بوده است.
هیچ رویکردی برای همه وجود ندارد؛ بیشتر رویهها به سؤالات فردی که ممکن است در مورد یک سیستم داشته باشیم، و به روشهای فردی مانند بینایی یا زبان بسیار خاص است .
مدلهایی بر روی دادههای انسانی، که در آن این مدلها فقط همین وظیفه را انجام میدهند.
عوامل تفسیرپذیری که از مدلهای زبان ساخته شدهاند، میتوانند یک رابط کلی برای توضیح سیستمهای دیگر فراهم کنند – ترکیب نتایج در آزمایشها، ادغام در روشهای مختلف، حتی کشف تکنیکهای آزمایشی جدید در یک سطح بسیار اساسی.
همانطور که وارد رژیمی می شویم که در آن مدل هایی که توضیح می دهند خود جعبه های سیاه هستند، ارزیابی های بیرونی روش های تفسیرپذیری به طور فزاینده ای حیاتی می شوند.
معیار جدید این تیم با مجموعه ای از عملکردها، با ساختار شناخته شده، که بر اساس رفتارهای مشاهده شده در طبیعت مدل شده است، به این نیاز می پردازد.
توابع داخل FIND دامنههای متنوعی را شامل میشود، از استدلال ریاضی گرفته تا عملیات نمادین روی رشتهها تا نورونهای مصنوعی ساختهشده از وظایف سطح کلمه.
مجموعه داده توابع تعاملی به صورت رویه ای ساخته شده است. پیچیدگی دنیای واقعی با افزودن نویز، ترکیب توابع و شبیه سازی بایاس ها به توابع ساده معرفی می شود.
این امکان مقایسه روشهای تفسیرپذیری را در محیطی فراهم میکند که به عملکرد دنیای واقعی ترجمه میشود.
علاوه بر مجموعه دادههای توابع، محققان یک پروتکل ارزیابی نوآورانه را برای ارزیابی اثربخشی AIA و روشهای قابلیت تفسیر خودکار موجود معرفی کردند.
این پروتکل شامل دو رویکرد است. برای کارهایی که نیاز به تکرار تابع در کد دارند، ارزیابی مستقیماً تخمینهای تولید شده توسط هوش مصنوعی و توابع اصلی و واقعی را مقایسه میکند.
ارزیابی برای کارهایی که شامل توصیف توابع به زبان طبیعی است پیچیده تر می شود.
در این موارد، سنجش دقیق کیفیت این توصیفات مستلزم درک خودکار محتوای معنایی آنها است.
برای مقابله با این چالش، محققان یک مدل زبان تخصصی «شخص ثالث» را توسعه دادند.
این مدل به طور خاص برای ارزیابی دقت و انسجام توصیفهای زبان طبیعی ارائهشده توسط سیستمهای هوش مصنوعی آموزش داده شده است و آن را با رفتار تابع حقیقت زمین مقایسه میکند.
FIND ارزیابی را قادر میسازد که نشان میدهد هنوز با خودکارسازی کامل تفسیرپذیری فاصله داریم.
اگرچه AIAها از رویکردهای تفسیرپذیری موجود بهتر عمل میکنند، اما هنوز نمیتوانند تقریباً نیمی از عملکردها را در معیار توصیف کنند.
تامار روت شهام، نویسنده ارشد این مطالعه و پسادکتری در CSAIL، خاطرنشان میکند که «در حالی که این نسل از AIA در توصیف عملکردهای سطح بالا مؤثر است، آنها هنوز هم اغلب جزئیات دقیقتر را نادیده میگیرند، به ویژه در زیر دامنههای عملکردی با نویز یا نویز. رفتار نامنظم
“این احتمالاً ناشی از نمونهگیری ناکافی در این مناطق است. یک مسئله این است که اثربخشی AIA ممکن است به دلیل دادههای اکتشافی اولیه آنها مختل شود.
برای مقابله با این، ما سعی کردیم اکتشاف AIA را با شروع جستجوی آنها با ورودیهای خاص و مرتبط راهنمایی کنیم. دقت تفسیر را به طور قابل توجهی افزایش داد.”
این رویکرد روشهای جدید AIA را با تکنیکهای قبلی با استفاده از مثالهای از پیش محاسبهشده برای شروع فرآیند تفسیر ترکیب میکند.
محققان همچنین در حال توسعه ابزاری برای تقویت توانایی AIA برای انجام آزمایشهای دقیقتر بر روی شبکههای عصبی ، هم در تنظیمات جعبه سیاه و هم در جعبه سفید هستند.
این جعبه ابزار با هدف تجهیز AIAها به ابزارهای بهتر برای انتخاب ورودی ها و پالایش قابلیت های آزمون فرضیه برای تجزیه و تحلیل شبکه عصبی دقیق تر و دقیق تر است.
این تیم همچنین در حال مقابله با چالشهای عملی در تفسیرپذیری هوش مصنوعی است و بر تعیین سؤالات مناسب هنگام تجزیه و تحلیل مدلها در سناریوهای دنیای واقعی تمرکز دارد.
هدف آنها توسعه روشهای تفسیرپذیری خودکار است که در نهایت میتواند به افراد کمک کند تا سیستمها را حسابرسی کنند – به عنوان مثال، برای رانندگی مستقل یا تشخیص چهره – برای تشخیص حالتهای خرابی احتمالی، سوگیریهای پنهان یا رفتارهای شگفتانگیز قبل از استقرار.
تماشای ناظران
این تیم در نظر دارد روزی AIA تقریباً مستقلی را توسعه دهد که بتواند سیستمهای دیگر را با نظارت و راهنمایی دانشمندان انسانی ممیزی کند.
AIAهای پیشرفته میتوانند انواع جدیدی از آزمایشها و سؤالات را ایجاد کنند که به طور بالقوه فراتر از ملاحظات اولیه دانشمندان انسانی است.
تمرکز بر گسترش تفسیرپذیری هوش مصنوعی است تا رفتارهای پیچیدهتری را شامل شود، مانند کل مدارهای عصبی یا زیرشبکهها، و پیشبینی ورودیهایی که ممکن است منجر به رفتارهای نامطلوب شوند.
این پیشرفت نشان دهنده یک گام به جلو در تحقیقات هوش مصنوعی است که هدف آن قابل فهم تر و قابل اعتماد کردن سیستم های هوش مصنوعی است.
مارتین واتنبرگ، استاد علوم کامپیوتر در دانشگاه هاروارد که در این مطالعه شرکت نداشت، میگوید: «معیار خوب ابزاری قدرتمند برای مقابله با چالشهای دشوار است.
دیدن این معیار پیچیده برای تفسیرپذیری، یکی از مهمترین چالشهای امروزی در یادگیری ماشین، فوقالعاده است. من بهویژه تحت تأثیر عامل تفسیرپذیری خودکاری هستم که نویسندگان ایجاد کردهاند.
این نوعی جیو جیتسو تفسیرپذیر است که هوش مصنوعی را به خود باز میگرداند. به منظور کمک به درک انسان.”
Schwettmann، Rott Shaham و همکارانشان کار خود را در NeurIPS 2023 در ماه دسامبر ارائه کردند.